查看原文
其他

为什么说湖仓是实时数仓的重要演进方向?

李代丽 ITPUB 2023-03-21

不知从何时开始,实时数仓这个赛道变得越来越“卷”,湖仓一体、云数仓、传统数仓都在向满足业务的实时性需求演进,那么到底什么是实时数仓?未来,是否会有一个主流发展方向能统领全部技术路线?


引领数据走向智能化新阶段

“湖仓一体,或者云数仓,都更偏技术层面的基础能力,而从具体的数据应用场景看,其实是几大方向的融合。”滴普科技杨磊,在接受ITPUB实时数仓系列访谈时认为,不管是湖仓一体,还是云数仓,最终解决的问题都是实时的数据分析应用。尤其是湖仓一体,解决的是数据+AI问题,可以从根本上满足数据基础能力和应用创新需求,是实时数仓发展的重要方向。

滴普科技杨磊

回望过去,数据仓库并不是一个新事物,从OracleTeradata,到后来的MPP数据库,以及在整个过程中产生出来的包括Hadoop在内的大数据平台,再从Snowflake到云数仓,还有由Databricks定义的湖仓,其实都是关键发展阶段的代表。很多人提到的HiveSpark,再到Flink,其实是整个大数据的入口端技术。Hive代表的是第一代的Hadoop架构,Spark代表的是第二代的Hadoop架构,Flink代表的是整个实时的大数据的架构。

简单理解,实时数仓大概可以分为几个重要阶段,即数仓阶段、大数据阶段以及大数据和MPP数据库并存的阶段,最终出现了以Snowflake为代表的云数仓,近似于实时数仓这样一个概念。到最后,Databricks重新定义了湖仓一体的概念,即围绕数仓的能力,打造出全新的实时数仓的状态。

其中,湖仓一体之所以能给用户带来更卓越体验,是因为在整个架构上实现了存算分离、流批一体,包括支持全量数据、数据存储,包括结构化、非结构化、半结构化的数据存储,在数据的事务处理能力上得到了进一步加强。因为像Hive这种技术,原来没有事务处理能力。另外,从整个引擎上来说,湖仓一体架构可以做进一步简化,易用性更好,而不像采用Hadoop开源架构那样,组件很多,需要多种不同能力模型的人,才能把Hadoop平台用起来。

有句话说得好,客户可以为技术鼓掌,而为业务买单,湖仓一体让所有业务都具备AI能力,即让所有数据具备可以被分析、决策、预测的状态,让技术辅助业务,围绕最终目标不断演进,获得持续生命力。


统一底层架构,拥有全链路能力

而从用户实际落地案例来看,传统使用Hadoop以及MPP数据库的企业正在向湖仓一体化转型。

以某时尚产业集团为例,该企业有很多传统数仓,有老的Oracle的数仓,还有OLAPDB2Teradata MPP数据库,以及自己搭建的Hadoop,这些系统支撑着生产、供应链、物流以及门店管理。

为了统一底层架构,该集团进行了三大改革:

第一,统一所有数据口径,做出数据目录。在原有数仓架构下,已经很难做全维度、全链路的数据口径统一。所以,第一步就是统一数仓接管全部业务。这样做带来的直接好处是,让运维变得简单,不再需要Oracle DB2TeradataHadoop等来自不同团队的人进行运维,直接降低了运维成本。

第二,所有数据全部入湖,建立统一的数据标识。构建整个湖仓的分层模型,把所有的数据全部进行统一处理,让所有多模数据统一存储,包括大量的结构化数据、非结构化数据。比如:在大量鞋的图片处理中,原来是统一格式,由一个单独服务来存储,现在把这些鞋的图片都放到整个湖仓平台内进行存储。

第三,通过插件对现有业务进行补充。该集团本身的IT技术实力很强,通过湖仓数据服务,还有新做的内嵌到原有的业务系统的分析决策的这种插件,可以更好地对接原有的BIERP等,全面提升数据分析以及运营能力。 包括通过更先进的算法和AI能力,可以对于商品流通环节的关键节点进行分析和预测。

更通俗的理解是,企业可以像盖房子一样。上半部分,有原来的ERP CRMWMS这样一些业务系统,这些业务系统以一个一个的烟囱式方法来构建;下半部分,有一个统一的数据平台,所有业务系统产生出来的数据,包括第三方电商数据,都全部进入数据统一平台,数据平台处理完之后,再反哺到数据应用场景中,最终实现离线到实时的应用。

实时数仓和离线数仓的最大区别,就是性能的差异性,要满足实时的计算需求,可能需要十倍以上的资源来部署。一般来说,实时和离线是两套不同的处理流程,这意味着企业需要存两份数据,成本高昂成为最大挑战。而实时数仓,可以基于一套架构,实现流批一体的集合。即通过不断优化计算引擎,大幅度降低对计算实时性、计算引擎的消耗,这也是湖仓一体成为未来发展趋势的最主要原因。


速度更快,易用性更好

那么,随着不同类型玩家加入,实时数仓这一赛道,未来整个市场竞争格局是什么?

是一个相互碾压的局面!正如杨磊所言,数据中台的地位未来会比较尴尬,不管是湖仓、云数仓其实都具备整个数据的开发处理能力。从底层的厂商来说,可以往上走,向上挤压;而一些做BI的厂商,可以基于数据分析和处理能力,向下挤压。当然,最终发展结果不会一直有很多玩家存在,而是大浪淘沙的一个过程。

另外,原来数据中台、数仓架构开发模式太重,不像公有云这种轻量化的数据开发治理模式更符合业务需求。所以,数据中台可能只是一个中间状态,未来在底层上就是两大分支:一方面以湖仓一体为代表的这种模式,也就是大数据的下一代;另一方面,数据中台在公有云上面提供的服务。

但从满足实时数仓用户需求的角度来看,一定是速度更快、易用性更好的解决方案,才能被大家看好。这也是滴普科技实时湖仓平台FastData要在云原生能力、DataOpsACID事务处理进一步增强的主要原因。不管是湖仓一体平台,还是实时数仓平台,都应该具备技术的开放性,让数据开发、数据处理变得更加简单。

总之,数据+AI一定是实时数仓最重要的价值呈现,没有人怀疑这是一个伪需求,拥有数据的实时分析和预测,是每家企业都需要的必备数字化技能。



近期文章精选 

破解Kubernetes应用开发困局

实时数仓是一个产品还是解决方案?

对话MySQL之父Monty:代码要写到100岁


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存